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摘 要 : [目的 /意义 ] 对 比 文件 是 用 以 判断 专利 能 否 授权 或 无 效 的 重要 文件 ,针对 传统 信息 检索 方法 的 不 足 且 鲜 有 利用 
机 器 学 习 方法 研究 对 比 文件 检索 的 问题 ,在 引入 对 比 文件 信息 的 基础 上 ,构建 专利 相关 性 判定 模型 。[ 方法 “过 
程 ] 以 专利 无 效 判 决 书 中 的 目标 专利 与 对 比 文件 为 数据 集 进行 实验 ,提取 文本 相似 度 、 共 现 词汇 和 共 词 数量 特征 
信息 ,利用 GBDT 模型 将 对 比 文件 的 检索 问题 转化 为 判断 其 是 否 相 关 的 分 类 问题 。[ 结果 /结论 ] 研究 结果 表明 ， 
不 同 字 段 数 据 对 分 类 效果 的 贡献 不 同 , 其 中 说 明 书 字段 的 准确 率 、 召 回 率 和 Fl 值 分 别 为 79% 48% 和 59% ,并 且 
多 特征 集成 后 的 分 类 效果 显著 优 于 单一 文本 相似 度 的 结果 ,最 后 对 实验 错 分 情况 进行 分 析 , 指出 本 研究 下 一 步 的 


研究 方向 。 
对 比 文件 “特征 选择 ”机 器 学 习 
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< 十 随 着 经 济 全 球 化 进程 加 快 ,科技 创新 在 国民 经 济 
性 民 中 的 驱动 作用 不 断 加 强 ,各 国 对 技术 创新 的 知识 
AURP AREN, 其 结果 是 专利 数量 爆发 性 增长 。 
国 为 例 ,2018 年 国家 知识 产权 局 受理 的 国内 外 专 
"tg: 1985 年 增长 近 300 fi, 相 比 之 下 专利 审 


C E» 


查 工 作 目 前 仍然 以 “检索 系统 + 人 工 判读 "为 主 ,成 本 


率 低 .受审 查 员 自身 专业 背景 和 技术 水 平等 主观 


要 标记 ,通过 访谈 第 三 届 专 利 检索 大 赛 ” 优 胜 者 得 知 ， 
即便 国内 顶尖 的 专利 审查 员 ,要 在 4 个 小 时 内 获取 一 
篇 有 效 的 对 比 文献 ,也 是 件 非常 困难 的 事情 ,其 难点 不 
仅 在 于 专利 包含 了 丰富 和 高 度 专 业 化 的 技术 内 容 法 
律 内 容 , 更 在 于 这 些 内 容 由 于 商业 技术 等 方面 的 考 
量 , 经 常会 辅 以 文字 变换 、 上 下 位 概念 蔡 换 、 惯 用 技术 
手段 置换 以 及 对 部 分 内 容 以 隐 式 方式 加 以 公开 "” ,从 


因素 影响 ,其 不 仅 导致 大 量 待 审 专利 申请 的 积压 ,而 
且 杉 易 出 现 审查 漏洞 并 导致 专利 的 错误 授权 ,为 技术 
持 迁 人 的 后 续 市 场 行为 带 来 了 严重 风险 =- 。 在 目前 
对 专利 审查 质量 和 审查 效率 要 求 愈 发 严格 的 大 环境 
下 5-9 ,这 种 矛盾 更 加 突出 。 因 此 如 何 有 效 提升 专利 
审查 的 质量 和 效率 ,成 为 一 个 摆 在 知识 产权 管理 部 门 
和 从 业者 面前 或 待 解决 的 重要 问题 。 

在 影响 专利 审查 质量 和 效率 的 各 种 因素 中 ,对 比 
文件 判定 是 其 中 的 关键 因素 和 主要 瓶 项 。 所 谓 对 比 文 
件 , 即 用 来 判断 发 明 或 实用 新 型 是 否 具备 新 颖 性 、 创 千 
性 等 所 引用 的 相关 文件 ""。 对 比 文件 的 判定 能 力 一 直 
以 来 都 是 反映 专利 审查 员 和 相关 从 业者 水 平 高 低 的 重 


而 使 普通 基于 倒 排 索引 和 文本 相似 度 计算 的 专利 检索 
系统 难以 应 对 。 

然而 随 着 第 三 次 人 工 智能 浪潮 的 到 来 ,以 统计 机 
带 学 习 为 代表 的 人 工 智能 技术 为 对 比 文献 判定 的 自动 
化 提供 可 能 性 。 这 也 构成 了 本 文 的 研究 主题 :跳出 将 
对 比 文件 判定 作为 信息 检索 问题 的 传统 思路 ,以 一 种 
有 监督 学 习 的 方式 对 对 比 文件 进行 识别 判定 ,具体 来 
说 ,就 是 首先 获取 目标 专利 及 其 对 应 对 比 文件 的 金 标 
准 ,进而 创建 训练 数据 集 并 从 目标 专利 和 候选 文献 的 
关联 信息 中 提取 出 多 种 特征 ,最 终 以 分 类 方式 识别 隐 
藏 在 候选 文献 中 的 真实 对 比 文件 。 相 比 信息 检索 方 
法 ,新 方法 的 优势 不 仅 在 于 超越 文本 相似 度 ,将 更 多 能 
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够 有 效 提升 对 比 文件 判定 的 特征 引入 进来 ,更 在 于 可 
以 通过 错误 分 析 ,获取 当前 方法 在 数据 处 理 、 特 征 工 程 
和 模型 构建 上 的 不 足 之 处 ,为 未 来 的 方法 优化 指明 道 
路 。 


1 相关 研究 


L1 对 比 文件 的 基本 内 洒 

对 比 文件 包括 专利 文件 和 非 专利 文件 ” ,通常 将 
待 判断 的 发 明 或 实用 新 型 称 为 目标 专利 。 

围绕 专利 生命 周期 的 各 个 时 期 ,根据 检索 目的 的 
不 同 ,可 以 将 专利 检索 分 为 现 有 技术 状况 检索 .无效 性 
检索 ,侵权 检索 . 确 权 检 索 等 。 其 中 无 效 性 检索 是 因 无 
效 请 求人 对 专利 权 产 生 质 疑 而 发 起 的 "” ,目的 是 检索 
因 审 查 琉 漏 或 对 现 有 技术 隐瞒 而 造成 的 错误 授权 的 证 
HO ,进而 对 发 明 产 生 时 的 新 颖 性 进行 复审 ,其 中 无 
谨 省 据 的 查找 是 无 效 请 求 能 够 成 功 的 关键 所 在 。 
根据 检索 报告 中 对 比 文件 与 权利 要 求 的 关系 ”可 
DDI CHAN X YA R P E 几 类 ,其 含义 如 表 1 
所 东 , 其 中 X 和 Y 类 均 与 目标 专利 密切 相关 。 


(f 


ra 表 1 对 比 文件 的 类 型 及 含义 
E 定义 
SG 单独 影响 权利 要 求 的 新 颖 性 或 创造 性 的 文人 


总 二 与 检索 报告 中 其 他 立 类 文件 组 合 后 影响 权利 要 求 的 创造 性 的 文件 
AT 背景 技术 文件 , 即 反映 权利 要 求 的 部 分 技术 特征 或 者 有 关 的 现 有 技 
: 术 的 文件 

任何 单位 或 个 人 在 申请 日 向 专利 局 提交 的 、 属 于 同样 的 发 明 创造 的 
人 下。 专利 或 专利 申请 文件 
=P 二 ”中间 文件 ,其 公开 日 在 申请 的 申请 日 与 所 要 求 的 优先 权 日 之 间 的 广 
b= 件 , 或 者 会 导致 需要 核实 该 申请 优先 权 的 文件 

单独 影响 权利 要 求 新 颖 性 的 抵触 申请 文件 


1.2 对比 文件 的 检索 
1.2.1 传统 的 对 比 文件 检索 

审查 员 或 无 效 请 求人 一 般 通 过 与 目标 专利 相关 的 
技术 关键 词 或 组 配 专 利 分 类 号 "在 海量 数据 中 进 
行 检索 ,虽然 组 配 的 方式 在 一 定 程度 上 提高 了 检索 效 
率 , 但 仍 存在 靶 义 词 .同义词 等 影响 因素 。 即 使 是 经 验 
丰富 的 审查 人 员 利 用 深入 挖掘 发 明 人 /申请 人 信息 B 
踪 相 关 文 献 的 参考 文献 信息 、 追 踪 前 沿 领 域 的 原创 性 
非 专 利文 献 等 "高效 获取 对 比 文件 的 追踪 检索 
的 技巧 ,也 难以 避免 反复 多 次 构建 检索 式 ,阅读 理解 相 
关 文献 并 判断 其 能 否 作为 对 比 文件 的 繁琐 过 程 。 

K. Rajshekhar 等 证 明了 目标 专利 与 至 少 20% 的 
高 度 相关 专利 之 间 没 有 明显 相似 的 技术 术语 ,最 先进 
的 语义 检索 技术 也 最 多 只 能 检索 出 高 度 相 关 的 现 有 技 


术 的 十 分 之 一 "1。 隆 瑾 基于 专利 引文 和 对 比 文件 都 
与 目标 专利 的 技术 内 容 存在 一 定 的 相似 性 的 特点 , 提 
出 从 专利 引文 中 获取 对 比 文件 的 思路 '" ,虽然 在 理论 
层面 具有 较 高 的 指导 价值 ,但 是 对 于 实践 来 说 缺乏 一 
套 具 体 的 检索 方法 。 现 有 的 关于 对 比 文件 的 检索 思路 
对 检索 经 验 的 依赖 较 高 。 

1.2.2 机 器 学 习 在 对 比 文件 检索 中 的 应 用 

传统 的 信息 检索 模型 对 检索 主题 和 待 检索 文档 的 
相关 性 进行 排序 ,主要 利用 词 频 . 逆 文 档 频率 和 文档 长 
度 这 几 个 因素 来 人 工 拟 合 排序 公式 ,根据 排序 返回 查 
询 结果 。 

随 着 相关 度 的 影响 因素 变 多 ,基于 大 数据 的 学 习 
排序 (learning to rank) 逐渐 成 为 热门 领域 。 学 习 排 序 
可 以 把 各 个 现 有 排序 模型 的 输出 作为 特征 ,然后 训练 
一 个 新 的 模型 ,并 自动 学 习 这 个 新 的 模型 的 参数 。 简 
单 地 说 ,学 习 排 序 是 组 合 多 个 现 有 的 排序 模型 来 生成 
新 的 排序 模型 的 算法 。 利 用 机 器 学 习 技 术 来 对 搜索 结 
果 进 行 排序 是 近 几 年 热门 的 研究 领域 ,但 是 该 算法 在 
无 效 专利 检索 的 领域 并 未 见 相 关 应 用 和 研究 。 

国内 研究 多 从 相似 专利 识别 角度 切入 ,张杰 等 提 
出 了 利用 权利 要 求 书 文本 的 主 谓 宾 结构 进行 相似 专利 
的 识别 。 刘 玉 酚 等 在 二 步 检索 的 基础 上 结合 中 文 
专利 独立 权利 要 求 结构 的 特征 信息 构建 中 文 专利 无 效 
GaU 。 传 统 方法 多 利用 文本 相似 度 或 检索 系 
统 , 如 cosine similarity , elastic Search 等 进行 对 比 文件 
识别 ,但 因 其 只 进行 了 字符 串 间 的 比 对 而 导致 实验 效 
果 有 限 。 而 基于 权利 要 求 书 文 本 结构 独特 性 的 分 析 方 
法 多 从 专利 文本 的 分 词 模型 ”| 命名 实体 识别 .文本 
分 类 中 ”等 角度 切入 ,在 此 基础 上 可 以 进一步 探索 相 
关 专 利 的 识别 与 检索 问题 。 

国外 学 者 在 这 方面 的 研究 起 步 略 早 , 大 多 采用 机 
器 学 习 的 方法 ,包括 利用 加 权 最 大 置信 度 方 法 对 仅 利 
用 词 频 的 专利 特征 挖掘 ”方法 进行 优化 .基于 专利 元 
数据 和 引文 信息 的 专利 主题 自动 分 类 .协同 训练 方 
法 标注 摘要 中 功能 字句 ”等 ,从 而 探索 专利 检索 精度 
的 提高 。 

F. Kreuchauff 等 利用 服务 机 器 人 领域 的 小 型 核心 
专利 数据 集中 的 标题 摘要 和 IPC. 信息 ,提出 基于 词 
性 .引文 或 联合 方法 的 专利 检索 策略 ”。 伯 克利 分 校 
的 W. Ho 等 利用 机 器 学 习 技 术 开 发 了 一 个 基于 文本 相 
似 度 的 预测 PTAB 受理 专利 无 效 请 求 概 率 的 程 
序 ””。 斯 坦 福 大 学 的 L，Ryan 等 利用 授权 专利 占 公 
司 申请 专利 数量 的 比重 专利 审 查 员 审查 通过 率 等 元 
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数据 特征 和 卷 积 神经 网 络 进行 专利 授权 预测 ,并 证 实 
了 该 方法 效果 优 于 仅 利用 专利 文本 数据 的 模型 。 

机 器 学 习 技 术 的 辅助 确实 优 于 传统 的 检索 方法 ， 
内 外 基于 专利 文本 结构 化 信息 、 题 录 信 息 等 的 研究 
已 经 较为 完备 ,此 外 或 需 改进 术语 间 相 关 性 判断 方法 、 
语义 表示 方法 或 融入 专家 经 验 以 进一步 提升 相关 文件 
的 检索 效果 。 本 研究 重点 关注 无 效 性 检索 环节 中 
的 对 比 文件 获取 问题 ,利用 机 器 学 习 方法 探索 从 无 效 
证 据 数据 库 中 识别 并 获取 对 比 文件 的 问题 。 


2 对比 文件 自动 识别 的 研究 设计 


2.1 总 体 框架 

本 文 以 将 对 比 文件 的 检索 问题 转化 为 机 器 学 习 中 
判断 对 比 文件 与 目标 专利 是 否 相 关 的 0 — 1 分 类 问题 
为 磊 完 思路 ,纳入 除 文本 相似 度 外 更 丰富 的 特征 进而 
实现 对 比 文件 的 识别 ,该 研究 总 体 框架 如 图 1 所 示 , 按 
Fs d Hye -数据 预 处 理 - 特征 选择 与 提取 -标签 
(EpL -模型 测试 "的 思路 展开 ,探索 利用 机 器 学 习 
训 尖 解决 人 工 检索 问题 的 可 行 性 。 详 细 步 怠 见 表 2。 


C3 
目标 专利 数据 集 对 比 文献 数据 集 


数据 预 处 理 


A 


志向 量化 的 目标 专利 语料库 向 量化 的 对 比 文献 语料库 


n: 
X 特征 选择 与 提取 
= 标签 向 量 
一 模型 选择 
t= 
© 


相关 性 判定 模型 


图 1 专利 相关 性 判定 模型 技术 路 线 


R2 研究 基本 步骤 
步 又 内 容 
根据 专利 无 效 判决 书 , 构 建 目标 专利 数据 集 和 对 比 文献 数据 集 
数据 清洗 ,规范 化 并 生成 向 量化 的 目标 专利 和 对 比 文献 语料库 
特征 选择 .提取 与 规范 化 ,形成 特征 数据 集 
根据 专利 申请 号 间 的 匹配 关系 ,生成 表征 数据 集 间 实 际 对 应 关系 的 
标签 向 量 


5 模型 测试 与 结果 评估 


e ù N 一 


2.2 数据 准备 
鉴于 发 明 专利 具有 保护 范围 更 广泛 、 稳 定性 更 优 、 
法 律 保护 强度 更 大 的 优势 ,本 研究 将 数据 范围 界定 


为 向 专利 复审 委员 会 提出 无 效 宣告 请 求 的 中 国 发 明 专 
利 。 

本 研究 将 万 象 云 数据 库 作 为 数据 来 源 ,首先 下 载 
1990 -2018 年 间 经 历 无 效 审查 的 专利 作为 目标 专利 样 
本 总 体 , 共 计 4 246 件 ,每 条 样本 内 容 包括 无 效 宣 告 专 
利 的 决定 号 ,无效 请 求人 ,专利 权 人 等 基本 信息 以 及 无 
效 宣 告 的 法 律 依据 ,决定 要 点 和 决定 书 全 文 等 字段 。 

专利 无 效 判决 书 是 由 判决 依据 的 法 律 条 款 、 决 定 
要 点 .决定 全 文 构成 的 ,其 中 决定 全 文中 包含 以 下 4 部 
分 内 容 : 中 目标 专利 基本 信息 ;@) 无 效 请 求人 提出 请 求 
的 原因 ,依据 条 款 、 证 据 附 件 等 信息 ;@@ 证 据 认 定 的 详 
细 结 果 ;由 案件 决定 , 即 根据 证 据 与 专利 法 判定 该 专利 
的 法 律 状态 (维持 有 效 .维持 部 分 有 效 全 部 无 效 ) 。 

接 下 来 ,利用 正则 表达 式 从 无 效 判 决 书 中 无 效 请 
求人 提供 的 专利 类 型 的 无 效 证 据 文 本 中 提取 无 效 证 据 
专利 号 ,共计 21 718 个 ;再 从 万 象 云 数据 库 中 批量 检 
索 ,下 载 其 专利 名 称 .摘要 等 题 录 项 作为 无 效 证 据 样本 
总 体 。 

最 后 从 目标 专利 样本 总 体 中 随机 抽取 60 件 专利 
作为 目标 专利 数据 集 ,并 根据 专利 号 从 无 效 证 据 样 本 
总 体 中 抽取 与 目标 专利 相 匹 配 的 无 效 证 据 作 为 对 比 文 
件数 据 集 ,共计 299 件 , 其 中 专利 名 称 、 摘 要 、 权 利 要 求 
和 说 明 书 字段 是 最 重要 的 研究 数据 。 本 研究 所 使 用 到 
的 专利 字段 及 含义 如 表 3 Bron: 

RI 专利 字段 及 其 内 涵 与 功能 


专利 文献 字段 专利 字段 内 涵 与 主要 功能 
专利 名 称 简短 ,准确 地 表明 专利 要 保护 的 主题 和 类 型 


摘要 写 明 专利 名 称 和 所 属 技术 领域 ,清楚 反映 所 要 解决 的 技术 


问题 


权利 要 求 书 。 以 说 明 书 为 依据 ,清楚 简要 地 限定 要 求 专利 保护 的 范围 。 
记载 发 明 或 实用 新 型 的 技术 特征 ,是 专利 审查 的 依据 

说 明 书 清楚 完整 地 描述 发 明 或 实用 新 型 ,使 所 属 技术 领域 的 技术 

人 员 能 够 理解 和 实施 该 发 明 或 实用 新 型 。 包 括 技术 领域 、 


背景 技术 ,发明 内 容 、 附 图 说 明和 具体 实施 方式 
注 : 表 3 中 文字 描述 均 来 自 于 《专利 审查 指南 2010) 


2.3 特征 提取 

该 步 又 通过 选取 有 价值 的 关键 信息 , 哆 除 噪音 来 
使 分 类 噩 学 习 到 文本 中 最 重要 的 信息 ,进而 提高 分 类 
器 性 能 。 在 本 研究 中 ,我 们 主要 使 用 文本 相似 度 、 共 现 
词汇 和 共 现 词汇 数量 三 种 特征 ,具体 提取 流程 如 图 2 
所 示 , 其 中 : 

(1) 文 本 相似 度 。 首 先 分 别 训练 TF-IDF 模型 得 到 
用 tf-idf 值 表示 的 专利 各 字段 文档 向 量 , 即 标 题 摘要 、 
权利 要 求 书 ,说明书 与 合并 文档 (本 文中 将 专利 标题 、 
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摘要 、 权 利 要 求 书 与 说 明 书 的 合并 文本 称 为 合并 文 
Fi) ,然后 据 此 训练 LDA 模型 ,再 分 别 将 各 字段 文档 映 


的 用 来 证 明 某 目标 专利 无 效 的 证 据 , 即 该 对 比 文件 与 
目标 专利 之 间 具 有 匹配 关系 , 则 将 该 对 比 文件 与 目标 


射 到 主题 空间 ,最 后 分 别 求 得 各 字段 间 的 文本 相似 度 。 

(2) 共 现 词汇 。 文 本 相似 度 是 一 个 重要 的 特征 ， 
但 是 仅 使 用 文本 相似 度 得 到 的 相关 性 结果 较 差 。 目 标 
专利 与 对 比 文件 间 若 存在 共 现 词汇 , 则 它们 可 能 相关 ， 
且 存 在 的 共 现 词汇 越 多 ,它们 之 间 相关 的 可 能 性 就 越 
ds 

取 目 标 专利 和 对 比 文件 间 各 个 对 应 字段 文档 的 词 
汇 交 集 作 为 共 现 词汇 。 提 取 共 现 词汇 特征 时 , 相 比 于 
不 加 第 选 地 使 用 , 本 研究 采用 信息 增益 (information 
gain) 的 方案 , 先 第 选 信息 增益 Top 600( 在 对 比 Top50、 
100 ,250 .300 ,600 后 选 定 最 优 情 况 Top600 ) 的 词汇 形 
成 词典 ,再 将 词典 中 的 词汇 向 量化 作为 特征 。 信 息 增 
FEIE ARIE X 的 信息 使 得 类 别 Y 的 不 确定 性 减 
佑 风 程度 吧 。 利 用 信息 增益 度量 词汇 的 重要 性 不 仅 
本 世 减 少 词汇 噪音 ,还 可 以 减少 存 钳 和 计算 负担 。 
回 (3 ) 共 现 词汇 数量 。 目 标 专 利 与 每 个 对 比 文献 对 
应 等 段 的 共 现 词汇 数量 取 值 在 [0,。 ] ,为 减 小 方差 对 
模型 学 习 其 他 特征 能 力 的 干扰 ,调用 了 sklear. prepro- 
cssihs 中 的 MinMaxScaler 标准 化 方法 将 贡献 词汇 数量 
HEIC LO, 1] ,得 到 共 现 词汇 数量 特征 。 
“最 后 将 文本 相似 度 特征 \ 共 现 词汇 特征 、 共 现 词汇 
数 熏 特征 合并 成 一 个 特征 矩阵 ,作为 本 研究 的 特征 数 


2 特征 提取 流程 


2.4 标签 生成 

该 步 又 用 以 产生 目标 专利 和 对 比 文献 是 否 匹 配 的 
标签 信息 ,也 是 实验 中 判断 专利 之 间 关 系 的 金 标准 。 
如 果 某 对 比 文件 确实 是 无 效 判 决 书 中 无 效 请 求人 提交 


专利 的 匹配 标签 置 为 1 ,否则 为 0。 用 这 种 方式 生成 的 
标签 信息 作为 后 续 模 型 分 类 效果 的 评判 标准 。 
2.5 模型 测试 与 结果 评估 

机 需 学 习 中 的 各 类 算法 模型 发 展 迅 速 并 在 各 个 领 
域 发 挥 着 重要 的 作用 ,如 logistic 回归 模型 、 隐 马尔 可 
夫 模 型 .条件 随 机场 模型 等 等 。 本 研究 采用 梯度 提升 
决策 树 模 型 (Gradient Boosting Decision Tree, 简称 GB- 
DT) 应 用 于 相关 性 判定 中 ,GBDT ÆJ. H. Friedman 于 
2001 年 提出 的 一 种 提升 算法 ” ,主要 包括 计算 候选 分 
裂 点 ,创建 决策 树 、 寻 找 分裂 树 节点 、 计 算 合并 叶子 节 
点 的 预测 值 几 部 分 。 上 有 具体 来 说 ,首先 初始 化 预测 值 , 然 
后 进入 一 个 迭代 过 程 ,每 次 增加 一 棵 分 类 树 并 从 新 的 
叶子 节点 中 得 到 预测 值 及 其 与 实际 值 之 间 的 残 差 , 接 
下 来 根据 残 差 进行 学 习 , 生 成 新 的 分 类 树 ,循环 至 实际 
值 与 由 最 终 分 类 树 得 到 的 预测 值 之 间 的 残 差 足够 小 。 
由 于 该 模型 性 能 优良 ,被 广泛 应 用 于 数据 竞赛 和 工程 
实践 。 

本 研究 的 关键 环节 在 于 文本 特征 和 标签 向 量 的 提 
取 , 利 用 Google 开发 的 Python fl 5$ ^£ 2J FE. scikit- 
learn , fic BR 7 :3 划分 训练 集 和 测试 集 , 输 入 GBDT 中 
进行 学 习 , 主 要 使 用 准确 率 与 召回 率 的 调和 平均 数 F1 
值 来 反映 模型 的 分 类 效果 。 


3 ”实证 研究 


3.1 实验 概况 

本 研究 主要 利用 Gensim' 的 框架 进行 实验 ,实验 
代码 基于 Python2.7. 13 ,主要 开发 环境 为 Windows7 ,64 
位 操作 系统 ,处 理 器 为 Intel 的 16 核 处 理 器 ,运行 内 存 
为 64G。 整 体 技术 路 线 见 图 3。 
3.2 数据 获取 

我 们 以 万 象 云 数据 库 ”作为 数据 来 源 ,首先 从 目 
标 专 利 样本 总 体 中 随机 选取 60 件 作为 目标 专利 样本 ， 
人 工 下 载 并 收集 整理 其 专利 基本 信息 ,包括 目标 专利 
1 请 号 .专利 名 称 、 专 利 摘要 、 权 利 要 求 书 、 说 明 书 等 ， 
构建 目标 专利 数据 集 ;然后 从 无 效 证 据 样 本 总 体 抽取 
与 目标 专利 数据 集中 目标 专利 号 相 匹配 的 无 效 证 据 专 
利 号 ,下载 其 专利 名 称 摘要、 权利 要 求 说明书 等 基本 
i ,构建 对 比 文献 数据 集 。 

经 处 理 后 ,本 研究 所 需 的 目标 专利 数据 集 和 对 比 
文献 数据 集 分 别 包 含 60 件 和 299 件 专利 。 
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F. 专利 无 效 对 比 文件 判定 方法 研究 [J]. 图 书 情报 工作 ,2021 ,65(2):117 - 125. 


随机 抽取 ， 预 处 理 


目标 专利 数据 集 


数据 预 处 理 、 


数据 收集 


对 比 文献 数据 集 


导入 Jupyter NoteBook 


向 量化 


向 量化 的 对 比 文献 数据 集 


T- 
> 
LO 
N 
` E 
o 
e 3 ”相关 性 判定 模型 研究 流程 
«t 
30D 实验 结果 用 合并 文档 字段 仅 利用 文本 相似 度 作为 分 类 特征 的 对 
CO 实验 经 过 多 次 调整 参数 ,选择 参数 n_estimators = | 照 实验 。 
20- 为 模型 性 能 最 好 的 情况 ,n_estimators 为 超 参 数 , 指 X4 GBDT 模型 实验 评价 指标 及 其 含义 
的 昌 弱 学 习 器 的 最 大 和 迭代 次 数 。 实 验 结果 用 指标 A、 -— ax 
P. R Fl 进行 评价 ,其 指标 具体 含义 见 表 4。 准确 率 A 是 指 预测 正确 的 专利 对 占 总 的 专利 对 的 比重 
zy 次 实验 主要 结果 如 表 5 所 示 , 表 中 Tite Ab- 精确 率 P ”正确 预测 为 相关 的 专利 对 占 全 部 预测 为 相关 的 专利 对 的 比重 
HE n as E 回 率 R ”正确 预测 为 相关 的 对 占 实际 具 关 关 系 的 对 的 上 
‘Claim. Description 和 All 分 别 代 表 字 段 专 利 标 召回 率 淆 预测 为 相关 的 专利 对 占 实际 具有 相关 关系 的 专利 对 的 比重 
F1 值 精确 率 和 召回 率 的 调和 平均 数 ,常用 该 指标 做 综合 评价 
EDE KHER MEANEN EMESA 
X5 GBDT 分 类 结果 统计 
指标 Title Abstract Claims Description All 对 照 组 
A 0.986 3 0.986 4 0.987 4 0.990 3 0.989 4 0.985 1 
P 0.568 2 0.549 3 0.730 8 0.791 7 0.701 8 0.5000 
R 0.312 5 0.487 5 0.237 5 0.4750 0.500 0 0.062 5 
F1 0.403 2 0.516 6 0.358 5 0.593 7 0.583 9 0.111 1 


同 是 使 用 合并 文档 字段 作为 实验 数据 ,加 入 共 
现 词汇 和 共 现 词汇 数量 作为 分 类 特征 的 实验 组 
CAID 与 仅 为 文本 相似 度 的 对 照 组 相 比 ,后 者 分 类 
效果 呈现 出 断崖 式 下 降 , 从 综合 指标 Fl 来 看 ,多 特 
征 的 分 类 效果 几乎 是 对 照 组 的 5 倍 。 由 此 可 以 认 
为 本 实验 优 于 传统 的 单纯 使 用 文本 相似 度 特征 的 


分 类 效果 。 
3.4 ”实验 讨论 

本 节 将 在 实验 结果 的 基础 上 ,从 字段 ,特征 和 误差 
3 个 角度 进行 讨论 ,为 下 一 步 的 研究 寻找 思路 。 


3.4.1 字段 评估 
由 图 4 可知, 在 GBDT 模型 中 单独 使 用 各 字段 时 
的 分 类 效果 (以 FL 值 为 评价 指标 ) 分 别 为 :0.593 7( 说 
WHE) > 0.583 9 (合并 文档 ) > 0. 516 6( 摘 要 ) 

>0.358 5( 权 利 要 求 ) >0. 403 2( 标 题 ) 。 

从 图 4 可 以 更 为 直观 地 看 出 GBDT 模型 中 ,说 明 
书 是 分 类 效果 最 优 的 字段 ,而 集 标题 摘要、 权利 要 求 、 
说 明 书 于 一 体 的 合并 文档 字段 分 类 效果 与 说 明 书 类 
似 ,甚至 有 些许 下 降 。 对 分 类 效果 较 好 的 几 个 字段 进 
行 组 合 ( 如 说 明 书 + 摘要 ;标题 + 摘要 + 权利 要 求 等 多 
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个 方案 ) ,实验 发 现 分 类 效果 与 表 5 中 合并 文档 的 效果 

近似 ,这 说 明文 本 容量 的 增多 并 不 是 分 类 效果 提升 的 

充分 条 件 ,效果 最 佳 的 说 明 书 承载 了 专利 最 详细 的 信 

息 ,包含 技术 领域 .技术 背景 .发明 内 容 、 具 体 实施 方式 

等 更 加 丰富 和 细节 的 信息 ,从 一 定 程度 上 反映 出 文本 

内 容 之 间 相 关 性 和 独特 性 的 丰富 度 也 是 分 类 效果 的 重 
影响 因素 。 


0.700 0 


0.593 7 0.583 9 
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0.403 2 
.358 $ 
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地 04000 
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0.3000 
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Lo Titel Abstract Claims Description All 
E 专利 字段 
CO 图 4 GBDT 模型 各 字段 最 优 分 类 效果 


eo 
< 二 除 说 明 书 字段 外 ,文本 容量 与 说 明 书 有 和 较 大 悬殊 
E E ,而 权利 要 求 书 


分 类 能 力 最 弱 。 这 是 由 于 摘要 是 一 个 专利 内 容 的 浓 
缩 ,虽然 有 300 字 的 字数 限制 ,但 是 讲 括 了 主要 的 
背景 和 技术 信息 ,而 权利 要 求 书 作为 专利 保护 范围 的 
法 律 依据 ,会 使 用 大 量 较 为 专 深 和 非常 用 词 ,除了 对 技 
术 信 息 的 详细 描述 外 ,更 多 包含 的 是 与 其 他 相关 专利 
在 新 疾 性 和 创造 性 方面 的 差异 ,包含 了 该 专利 的 技术 
细节 和 独特 之 处 。 

3.4.2 特征 评估 

本 实验 采用 文本 相似 度 、 归 一 化 的 共 现 词汇 数量 
以 及 600 个 共 现 词汇 作为 特征 ,对 其 特征 的 权重 , 即 不 
同 特征 对 实验 结果 的 贡献 进行 排序 ,得 到 图 5, 从 图 中 
可 看 出 权重 最 高 的 基本 上 都 是 高 度 专业 化 的 共 现 词 
汇 。 

本 次 实验 中 有 64 个 特征 的 权重 大 于 0 ,其 范围 为 
[0,0.072 ] , 且 文本 相似 度 和 归 一 化 的 共 现 词汇 数量 分 
别 排 在 第 2 和 23 位 。 由 此 可 见 在 GBDT 模型 中 所 有 
的 特征 并 非 均 有 贡献 于 模型 分 类 ,贡献 最 大 的 是 高 度 
专业 化 的 共 现 词汇 。 多 次 实验 后 发 现 类 似 的 规律 , 基 
本 上 文本 相似 度 和 大 多 数 共 现 词 汇 特征 的 权重 远大 于 
归 一 化 的 共 现 词汇 数量 。 


0.031 


0.027 905 0.026 0.026 
0.023 


S 


49 4 as 


HS 
E 8 


特征 


图 5 GBDT 模型 权重 序 前 15 位 的 特征 
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3.4.3 误差 分 析 


误差 分 析 指 的 是 检查 被 算法 误 分 类 的 开发 集 样本 
的 过 程 ,是 机 器 学 习 中 常见 研究 方法 ,以 便于 获得 探索 
新 方向 的 灵感 。 本 节 在 专利 文本 的 基础 上 ,引入 专家 
干预 ,从 专利 之 间 的 语义 相关 性 、 领 域 相关 性 等 角度 进 
行 了 分 词 误差 .参数 影响 .领域 .机 器 翻译 等 方面 的 分 


Tir ,以 便 获 知 各 个 误差 原因 及 优化 的 优先 级 。 本 次 实 
验 测试 集中 出 现 误差 的 专利 对 共计 52 件 , 分 为 实 为 对 
比 文件 而 判定 不 相关 (FN) 和 实际 不 相关 而 判定 为 对 
比 文件 (FP) 两 种 情况 ,分 别 占 42 和 10 件 。 

从 文本 相似 度 角 度 进行 分 析 , 发 现 FN 和 FP 的 专 
利文 本 相似 度 区 间 分 别 为 [0. 096 ,0. 995 ] 和 [0.041， 
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AR, AR, A, 等. 专利 无 效 对 比 文件 判定 方法 研究 [J]]. 图 书 情报 工作 ,2021 ,65(2):117 -125. 


0.563 ] ;从 共 现 词汇 角度 发 现 , 误 分 类 的 专利 文本 中 出 
现 最 多 的 共 现 词 是 “ 雁 ”(0. 023 437) 和 “水 ” 
表 6 


误差 原因 参数 分 词 


语义 相关 


(0.000 588) ,FN 和 FP 情况 下 的 误差 数量 和 比例 如 表 
6 所 示 : 


误差 分 析 


文本 不 相关 领域 机 器 翻译 


误差 含义 生物 ,化 学 等 领域 的 
专利 文本 分 词 后 出 


存在 超过 5 处 明显 
的 分 词 错误 (参数 


文本 相似 度 极 低 但 。 人 工 阅读 后 发 现 文 
领域 专家 判定 其 语 ”本 相关 度 较 低 


领域 专家 判定 两 件 ”存在 专利 文本 不 流 
专利 的 领域 是 否 相 。” 畅 的 情况 (仅见 于 


现 常见 的 数值 .单位 ”原因 除外 ) 义 具 有 相关 性 的 情 同 外 国 专利 ) 
或 术语 缩写 等 问题 况 
(超过 5 处 ) 
FN ”数量 (个 ) 14 37 9 25 14 
比例 (% ) 33.33 88. 10 16.67 21.43 59.52 33.33 
FP ”数量 (个 ) 5 6 1 5 4 
比例 (% ) 50. 00 60. 00 0.00 10. 00 50. 00 40. 00 


忆 根 据 上 述 错误 分 析 结 果 , 本 文 认为 可 以 从 两 个 广 
lj 稚 试 进行 改进 :在 数据 准备 环节 区 分 专利 领域 , 因 
海岛 域 相同 的 专利 之 间 更 有 可 能 具有 相似 的 技术 背景 
等 实 本 和 语义 信息 ,所 以 同 领域 专利 之 间 更 可 能 对 彼 
此 的 稳定 性 产生 干 搞 , 而 不 同 领域 的 专利 之 问 影响 稳 
o 


定性 的 可 能 性 较 低 ,比如 生物 领域 的 专利 极 少 出 现 被 
机 械 领 域 的 专利 证 明 无 效 的 情况 ;@ 尽 可 能 提高 数据 
处 理 精度 ,如 分 词 精 度 、 停 用 词 过 滤 精 度 等 , 尽 可 能 将 
可 控 的 误差 降 到 最 低 。 总 体 而 言 ,本 实验 得 出 的 结论 
与 优化 建议 如 表 7 所 示 : 


表 7 实验 结论 


o 


Ci 具体 内 容 


展望 


GG。 说明 书 是 承载 专利 信息 最 重要 的 文本 


FAE ”按照 贡献 大 小 :高 度 专业 化 的 共 现 词汇 > 文本 相似 度 > 贡献 词汇 数量 


未 来 实验 可 以 保留 说 明 书 和 摘要 字段 的 数据 以 加 快 实验 进程 


添加 领域 相似 度 作为 模型 特征 


2 
Se 1. 从 文本 角度 来 看 ,分 词 误 差 和 文本 中 的 参数 数值 是 最 重要 的 优化 点 ;2. 从 提高 数据 预 处 理 精度 


特征 角度 来 看 ,领域 相似 性 是 重要 的 分 类 特征 


4 三 结语 


〇 元 效 专利 对 比 文件 查找 中 仍然 使 用 传统 的 信息 检 
索 方法 ,例如 文本 相似 度 . 倒 排序 索引 等 ,但 专利 文本 
中 存在 诸多 特殊 之 处 ,比如 大 量 同义词 .对 等 词 .概念 
泛 化 等 现象 ,这 些 问题 会 导致 利用 传统 方法 检索 对 比 
文件 效果 不 佳 的 情况 。 对 此 ,本 文 利用 机 器 学 习 方法 
将 繁琐 而 低 效率 的 对 比 文件 检索 问题 转化 成 了 判断 目 
标 专利 与 对 比 文献 是 否 相关 的 分 类 问题 ,在 此 基础 上 
将 单一 的 相似 度 特征 扩展 到 文本 相似 度 、 共 现 词汇 以 
及 共 现 词汇 数量 3 个 特征 信息 进行 专利 相关 性 判定 。 
实验 结果 证 实 了 本 实验 方法 的 有 效 性 和 可 行 性 。 

本 研究 的 主要 贡献 包括 以 下 两 方面 :除了 文本 
相似 度 这 种 从 篇 章 级 别 判断 文本 相关 性 的 特征 ,本 研 
究 更 将 特征 下 探 到 词汇 级 别 ,对 文本 相关 性 进行 判断 ， 
这 其 中 使 用 的 特征 包括 文本 相似 度 、 共 现 词汇 和 共 现 
词汇 数量 ;@ 利 用 机 器 学 习 中 的 分 类 方法 代替 传统 的 


言 息 检索 方法 来 对 文本 相关 性 进行 判断 ,使 用 GBDT 
模型 并 取得 了 良好 效果 ;同时 做 出 了 详细 的 误差 分 
析 , 这 有 助 于 指出 实验 中 误 分 类 的 原因 和 类 型 ,提供 下 
一 步 改 进 的 方向 。 

然而 ,本 研究 也 存在 不 足 之 处 :中 对 比 文件 查找 分 
为 两 个 步骤 ,第 一 步 是 检索 相关 文件 ,第 二 步 是 判定 检 
索 结果 中 的 对 比 文件 ,也 是 本 研究 的 重点 所 在 ,有 关 专 
利 检索 的 相关 研究 将 是 下 一 阶段 的 工作 。 包 目前 研究 
基于 小 数据 集 ,如 何 扩充 到 大 数据 集 并 解决 实际 应 用 
问题 ,将 是 接 下 来 的 优化 方向 。 考 虑 到 需要 处 理 大 量 
数据 并 能 快速 返回 检索 结果 , 接 下 来 拟 引 用 企业 级 搜 
RIVE Elastic search 作为 技术 底座 来 支持 第 一 步 的 检 
索 召 回 研究 。 怨 本 研究 使 用 的 特征 主要 是 基于 文本 
的 ,比如 相似 度 JESUS] . 共 现 词 数 量 , 实 际 上 专利 中 有 
丰富 的 字段 ,比如 IPC ,专利 引文 ,专利 家 族 信息 ,这 些 
都 有 可 能 对 对 比 文件 查找 带 来 帮助 ,这 些 是 本 研究 团 
队 下 一 步 的 工作 内 容 。 利 用 人 工 智能 来 解决 复杂 的 审 
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查 工作 是 一 项 极 具 挑战 性 的 研究 ,希望 本 研究 能 够 为 
学 术 界 和 实务 界 提供 帮助 与 启示 。 
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"T Abstract: | Purpose/significance | Comparative documents are important for judging whether a patent can be 
(granted or invalid. Aiming at the shortcomings of traditional information retrieval methods and rarely using machine 
lning methods to study the issue of comparative document retrieval, based on the introduction of comparative file 
Guformation, this paper constructs a patent relevance determination model. | Method/process | Experiments were 
performed by using the target patents and comparative documents in the patent invalidation judgment as the data set to 
extract text similarity, co-occurrence vocabulary, and co-word quantity feature information. The GBDT model was 
Md to convert the retrieval of comparative documents into classification issues that determined whether they were rel- 
Gni. | Result/conclusion | The research results show that the contribution of different field data to the classification 
fpo is different, in which the F1 of the description text reaches 59% , and the classification effect after multi-fea- 
ture integration is significantly better than the result of single text similarity. Finally, this paper analyzes the experi- 
mental misclassifications and points out the next research directions. 


Keywords; patent invalidity the prior art feature selection machine learning 
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